終於完成這 30 天的挑戰了!
這是我第一次參加 IT 鐵人賽,想說在升大四的暑假來找一個有興趣的主題,好好的把它從頭梳理一遍,於是選擇了入門 NLP 做為這次的目標,就這樣寫著寫著,終於完賽了!
這 30 天下來,我感覺自己就是不停的在找資料,不停的在修飾草稿,不停的斟酌要用哪一個字來敘述比較妥當 …… 直到最後,我都還是覺得部份的敘述或概念可能有沒交代清楚或沒解釋好的地方,也希望大家可以揪出錯誤,讓我的觀念更完整一點。
通過這次比賽,我也學會了很多東西:
閱讀官方文檔:很多需要程式碼實作的內容會需要查看官方文檔是怎麼說明的,比方說 Pyserini 或 Langchain,我在瘋狂翻教程的同時也對這些工具有了更深入的了解,這個經驗我覺得很難得。
自己找論文來讀:我在找網路上介紹 Transformer 的文章的時候,也嘗試著去把原始的論文翻出來讀,希望可以稍微鍛鍊一下讀論文的能力。有時候,我發現把網路上的文章和論文一起對照著讀,會有更多的理解和產生更多的疑問,進而又去翻出更多資料,讓我有了更深的理解。
之後的幾個主題,比方說 LLM 或 Evaluation 也是用這樣的方式找資料,不過同時也拖累了寫作進度,把存稿慢慢耗光了 ……
連結各項主題:自然語言處理包含的領域和任務實在太廣了,但有趣的是,常常寫到一半突然發現,這個觀念可以連結到之前寫過的一個主題,然後就會嘗試著把兩邊的概念串起來,我想,這也是學習的研究的樂趣之一吧。
在這麼多天的努力中,我嘗試著去理解每一個環節,然後用自己的方式把整個脈絡整理出來,雖然僅僅是摸到了大型語言模型的皮毛而已,不過至少也達成了預期中的目標,在這個漫長的學習之路上邁出了第一步。
不過也因為是這場鐵人賽,每天都在督促著我要產出一些進度,才沒有荒廢了這個暑假,之後開學我也會更努力的朝著生成式 AI 的目標前進,越走越遠!
PS : 這幾天努力把資料整理好,就可以放上去 github 了 ~